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В работе предложен новый подход к решению задачи совместного построения решающих правил 
классификации и рабочего словаря признаков в обучающихся системах распознавания, основанный 
на использовании взвешенных обучающих выборок. Описаны метод \-@пар)С формирования взвешенной 
обучающей выборки у-объектов, алгоритм и-МТЕЕ построения рабочего словаря признаков на её 
основе и модифицированный метод А-ближайших соседей для выполнения классификации объектов. 
Приведены результаты экспериментальных исследований, подтвердившие эффективность предложенного 
подхода. 
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Введение 


Основными задачами, решаемыми при построении обучающихся систем распо- 
знавания, являются задачи построения эффективных решающих правил классификации 
и формирования рабочего словаря признаков [1]. На сегодняшний день одной из основ- 
ных проблем при решении этих задач является большой объем исходных данных, 
которые должна обрабатывать система за выделенное время. Так, в задачах автома- 
тической классификации текстов в новостных лентах и электронных библиотеках 
словарь признаков может состоять из тысяч ключевых слов, а обучающая выборка 
содержать десятки и сотни тысяч текстов [2]. 

Необходимость построения рабочего словаря признаков, состоящего в выборе 
оптимального набора наиболее информативных признаков из множества всех приз- 
наков априорного словаря, обусловлена значительными временными и емкостными 
затратами на измерение всех признаков классифицируемого объекта и выполнение 
классификации [1], [3], [4]. Задача построения решающего правила классификации 
состоит в формировании по всем объектам обучающей выборки выражения или алго- 
ритма классификации распознаваемых объектов, обеспечивающего минимальную 
ошибку классификации [1], [3]. В теории построения систем распознавания эти задачи 
в большинстве случаев рассматриваются независимо друг от друга, хотя выбор алго- 
ритма построения решающих правил в значительной мере зависит от набора признаков, 
которыми описываются распознаваемые объекты, а построенный словарь признаков 
оценивается качеством классификации по построенному решающему правилу. 

При комплексном подходе к построению решающих правил классификации и 
формированию рабочего словаря признаков данную задачу, согласно [5], называют 
задачей комбинированного типа ОХ (построения решающего правила Л в наиболее 
информативном подпространстве признаков Х). Её сложность состоит в необходи- 
мости одновременного решения двух ключевых задач распознавания: построения 
эффективного решающего правила классификации, для которой в большинстве случаев 
увеличение количества признаков приводит к повышению эффективности классифи- 
кации и минимизации словаря признаков для сокращения временных и емкостных 
затрат на выполнение классификации [6]. 

Наиболее известными алгоритмами решения задачи типа ОХ являются: 

— алгоритмы СОКАГ и ОУ [1], основанные на переборе всех возможных сло- 
варей признаков и формировании на их основе решающих правил классификации; 

— алгоритм ЕВ1$-ОХ [6], основанный на выборе очередного варианта признако- 
вого подпространства и построения в нем решающего правила на основе алгоритма 
ЕВ! -Зюр, выделяющего подмножества эталонных объектов, на основании которых 
выполняется классификация. 

Данные алгоритмы на основании анализа полной исходной информации выделяют 
некоторое признаковое подпространство, а затем выполняют анализ всех объектов 
для построения решающих правил. Учитывая большой объем обрабатываемых исход- 
ных данных, можно предположить, что такой подход потребует больших временных 
и вычислительных затрат из-за необходимости при выборе каждого нового призна- 
кового подпространства обрабатывать все исходное множество данных. 

В данной работе на основе разработанных ранее алгоритмов [7], [8] предлагается 
новый подход к решению задачи типа ОХ, который состоит в предварительном сок- 
ращении исходной выборки путем перехода к сокращенным взвешенным выборкам 
и-объектов и дальнейшем построении оптимального словаря признаков и решающего 
правила классификации на их основе. 
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Целью данной работы является разработка метода совместного построения 
решающих правил классификации и рабочего словаря признаков на основе взвешенных 
выборок и-объектов в обучающихся системах распознавания. 


Постановка задачи 


В качестве исходных данных дано некоторое множество объектов Х={Х, Х,,..,Х,}, 
1 
представленное в виде объединения непересекающихся классов Х = []И, и называемое 
ри 
обучающей выборкой. Каждый объект Х; из Х описывается системой признаков, 
т.е. Х;={хн, хр,.... ли}, И представляется точкой в линейном пространстве признаков, 
т.е. Х, е А". Для каждого объекта Х’ известна его классификация у; Е [1,[. 


Решение задачи классификации некоторого объекта Х, = {хи х,2›.... Хи} Пред- 


полагает выполнение двух этапов обработки исходной выборки Х для получения 
сокращенной по количеству объектов и их признаков взвешенной обучающей выборки 
и выполнение непосредственной классификации. 

На первом этапе необходимо сформировать классифицированную взвешенную 

и И БИ и т 
обучающую выборку и-объектов Х = 2 ›Х, Хи} Е Г, где 
Й . 

Х; ={х,хр,...х„, ри, р; - вес 1-го и-объекта. 

На втором этапе необходимо по выборке и-объектов построить сокращенный 
рабочий словарь из К (А < п) признаков при условии неухудшения эффективности 
классификации. 


Построение выборки и’-объектов по исходной обучающей 
выборке на основе алгоритма \-СтаОС 


Общим принципом построения сокращенных обучающих выборок и-объектов 
[8], [9] является выделение областей компактного расположения объектов одного 
класса в пространстве признаков и замена этого множества объектов одним и-объек- 
том, вес которого характеризует количественные или топологические особенности 
найденного множества. Приведем далее обобщенное описание метода и-СнарсС пос- 
троения выборки и-объектов. 

Идеей метода и-СпарсС [8] является наложение сетки на признаковое простран- 
ство для формирования множества клеток, определение объектов выборки, принад- 
лежащих каждой из клеток и их замена на и-объекты. Формирование объектов новой 
выборки выполняется только в случае принадлежности всех объектов клетки одному 
классу. Вес и-объектов определяется по количеству объектов исходной выборки, 
принадлежащих клетке. 

Далее приведем пошаговое описание метода. Без потери общности получаемых 
решений применим стандартный для теории распознавания подход, заключающийся 
в рассмотрении двухклассовых систем. 

Шаг [. Формирование сетки. Рассчитывается шаг клетки 5 по формуле: 


ПИ 
х (пах х,} - м зз * Ск) 
у Е = 
К т п ) 
п* [| (тах{ х;} — ши х;}) 
И 
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где |... — оператор округления до ближайшего целого значения; 
тах{х,} — максимальное значение 1-го признака среди всех объектов выборки, 


шт{х,} — минимальное значение. 


Выполняется разбиение признакового пространства К” по каждому из и приз- 
наков на интервалы длиной 5 (наложение прямоугольной сетки), результатом которого 
является множество клеток С’. Далее для каждого объекта выборки Х определяется 
клетка, которой этот объект принадлежит. 

Показано [8], что объект Х; принадлежит некоторой клетке С’, тогда и только 
тогда, когда каждое из значений его признаков входит в интервал значений соответ- 
ствующих признаков данной клетки. 

В результате формирования сетки и обработки объектов исходной обучающей 
выборки будут сформированы непересекающиеся подмножества Х’ с, объектов, при- 


С]. 

Шаг 2. Формирование значений признаков и-объектов. 

Возможны следующие варианты обработки содержимого клеток. 

1. Если все объекты клетки принадлежат к одному классу, то значения признаков 
объекта новой выборки рассчитываются как координаты центра масс объектов этой 
клетки: 


надлежащих соответствующим клеткам С ть т: 


Е. 


1 
Хх тия, 
Хо, ХеХс, 


"| 


2. Если клетка не содержит ни одного объекта, то объект новой выборки не 
формируется. 

3. Если клетка содержит объекты нескольких классов, то она делится на две 
равные по размеру клетки (поочередно вертикально или горизонтально) до тех пор, 
пока любая из клеток внутри начальной клетки не будет содержать объекты только 
одного класса. Далее по каждой из полученных клеток формируются объекты новой 
выборки (согласно случаям 1 и 2). 

Классификация и-объекта определяется по классификации объектов, по которым 
он сформирован. 

Шаг 3. Определение веса и-объектов. Вес и-объекта равен количеству объектов 
исходной выборки, принадлежащих клетке, т.е. 

р,= х с. 


1 


В результате выполнения алгоритма будет получена новая взвешенная обучающая 
выборка и-объектов Х”. 


Построение рабочего словаря признаков на основе 
взвешенных обучающих выборок и’-объектов 


Введение в описание объектов взвешенной обучающей выборки новой характе- 
ристики -— веса — не позволяет эффективно использовать известные алгоритмы пос- 
троения рабочего словаря признаков. Для решения задачи построения рабочего словаря 
признаков по взвешенным обучающим выборкам и-объектов в [7] предложен метод 
у’-МТЕЕ, описание которого приведем далее. 
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Основой метода и-МТЕЕ является оценка индивидуальной информативности 
признаков по обобщенному критерию, включающему в себя отношение дискриминанта 
Фишера и коэффициент индивидуальной эффективности распознавания. Основной 
особенностью предлагаемого метода является использование в качестве исходных 
данных взвешенной выборки и-объектов. 

Алгоритм и-МТЕЕ состоит из следующих этапов. 


1. Инициализация алгоритма (значений дискриминанта Фишера Дбйег. = 0,1 =1,п 


и среднего значения ДзйегАуе = 0). 


2. Вычисление отношения дискриминанта Фишера для всех признаков априор- 
ного словаря 


сы ры 
Лойег, = —— й 


хУ(Р, Ра (т; -т,)*) 
у=а= 


а*)] 


где О и - дисперсия значений 1-го признака по /-му классу, 
т; — среднее значение 1-го признака по /-му классу. 
3. Вычисление степени покрытия классов признаками априорного словаря 


5} 
>, ЛеаГаШету „ 


ЕТ 
сСоУ ета8е = , 


тр `Р) 


где 5, — количество уникальных найденных значений признака х,, 


ЛеТаШет5 „ — количество объектов класса ] с заданным значением 1-го 


признака. 
4. Вычисление взвешенной эффективности признаков 


1 
>, Лема Таз, 


иеещей Е}, = Е ы , 
>. Ра 
а= 


где Леа ее, — суммарный вес объектов класса ] с заданным значением 


1-го признака, 
ра - вес и-объекта. 


5. Выбор наилучших признаков: 


1) с максимальной эффективностью по степени перекрытия классов: 
1 


Вез1Соуегаве = тах »`соуегазе 


Но 
ТЬП = т 


2) с максимальной эффективностью по информативности: 
ВеяТ = тах иеющей ЕЙ. . 


ТП 
6. Формирование рабочего словаря признаков по параметрам максимальной 
эффективности по степени перекрытия классов и информативности признаков по 
следующим правилам: 
1) эффективность текущего признака совпадает с эффективностью лучшего 
признака; 
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2) эффективность признака больше 0 и данный признак улучшает распознавание 
хотя бы одного класса; 

3) эффективность признака больше 0 и распознавание хотя бы одного из 
классов лежит в пределах порога #, заданного пользователем. 

Отметим, что наличие пользовательского порога # связно с тем, что возможны 
ситуации, когда признаки не улучшают распознавание хотя бы одного из классов, 
но, тем не менее, имеют эффективность, близкую к лучшей эффективности распоз- 
навания классов. Таким образом, если для рассматриваемого признака разница между 
лучшей и текущей эффективностью распознавания любого из классов находится в 
пределах (0;#], то данный признак также считается информативным и включается в 
рабочий словарь признаков. 

В результате работы алгоритма и-МТЕЕ будет сформирован рабочий словарь, 
содержащий К (А <п) признаков. 


Выполнение классификации на основе 
взвешенной выборки и’-объектов 


Для классификации объектов на основе взвешенных обучающих выборок и-объ- 
ектов будем использовать модифицированный алгоритм К-ближайших соседей [9], 
широко применяющийся при решении задач классификации в условиях неполных 
априорных данных. Выбор данного метода для классификации на основе взвешенной 
обучающей выборки основывается на результатах исследований [10], согласно которым 
он будет показывать высокую эффективность классификации при использовании 
сокращенной обучающей выборки. 

Модификация алгоритма А-ближайших соседей в данном случае будет состоять 
в использовании метрики, позволяющей определять близость между объектами взве- 


шенной обучающей выборки и классифицируемым объектом Х’, [10]: 
Уз (Хр ^ Хр 


Р: 
Для определения классификации Х, найдем А-ближайших к нему и-объектов 


каждого из классов и отнесем к тому классу, суммарное расстояние до и-объектов 
которого минимально. 


Результаты экспериментальных исследований 


Для оценки эффективности предложенного подхода был проведен ряд экспери- 
ментальных исследований. В качестве исходных данных были использованы выборки 
объектов двух классов размером 1000 -— 5000 объектов при 20% пересечении областей 
классов в пространстве признаков, содержащих 10-100 признаков распознавания. 
Для генерации значений признаков использовался нормальный и равномерный законы 
распределения. Также для экспериментальных исследований были использованы 
наборы данных репозитория ОСТ [11]. 

В качестве критерия оценки эффективности классификации использовалась 
частота неверных классификаций. Количество «ближайших соседей» было выбрано 
равным 10% размера обучающей выборки и-объектов. 

При анализе результатов предложенного подхода к решению рассматриваемой 
задачи были получены следующие результаты: 
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1) размер взвешенных выборок и-объектов составил в среднем 2,3% размера 
исходных обучающих выборок; 

2) количество признаков, включенных в рабочий словарь, составило 40% - 55% 
исходного количества признаков; 

3) частота неверной классификации объектов тестовой выборки модифициро- 
ванным методом „-ближайших соседей по выборке и-объектов с использованием 
рабочего словаря признаков уменьшилась в среднем на 3,7% по сравнению с частотой 
неверной классификации методом А-ближайших соседей по исходной выборке. 

4) эффективность предложенного подхода увеличивалась с увеличением размера 
исходных обучающих выборок. 

Таким образом, результаты тестовых испытаний подтвердили эффективность 
предложенного подхода к совместному построению решающих правил классификации 
и рабочего словаря признаков на основе взвешенных выборок и-объектов. 


Выводы 


В данной работе предложен новый подход к решению задачи типа ОХ построения 
эффективного решающего правила классификации с определением минимального 
словаря признаков, основанный на переходе к взвешенным обучающим выборкам и 
объектов. Описаны метод и-СтАОС формирования взвешенной обучающей выборки 
и’-объектов, алгоритм и-МТЕЕ построения рабочего словаря признаков на её основе 
и модифицированный метод А-ближайших соседей для выполнения классификации 
объектов. Анализ предложенного подхода показал сходимость составляющих его 
методов, их низкую временную сложность, корректность обработки объектов исходной 
выборки. Отличительной особенностью данного подхода является использование 
сокращенной взвешенной обучающей выборки, что позволяет существенно сократить 
временные и емкостные затраты на построение словаря признаков и выполнение 
классификации объектов при сохранении начального уровня эффективности работы 
системы. 
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ВЕ5ОМЕ 
Е.И. ГасЁепко 


Мешоа о Лот Сопягиспоп о{ Рес1я1оп Ки[ез апа Еесшиге 
5@есноп Ва5бе4 оп Таеше4а Тиитз Затр/еу 


ТБе ргоМет оР ош сопзвгас ии оЁдес15юп пез оЁ с1аз1ИсаНоп апа Ееабиге зеесйоп 
ш башше гесогпюп зузета$ 1$ соп$1Аеге ш Ве уогК. ТВе таш ргоет 15 Ве пее4 ю 
апа[у$1$ ог 1агое уоате оЁ шри! даа. Ех1зИпе тефо@$ Юг #5 зооп аге сопз14егеа, 
Геаагез ор Фет пиретещайоп аге деЁпе4. 

ТБе уе Ще гашиш? затр]ез изше ю гедисе Ше атоци оЁ сотрщаНоп 15 ргорозе4, 
у\еге еасВ оБ1есе 1$ №огте4 Бу Пе зе оЁ об1ес{$ ш Ше огеша| заре. ТВе эт тшефоа 
у-апаОсС оЁЮгише а \е1еЩе4 1гаште зе оРоб]ес{$ \уаз дезсгре4. А!еогит \-МТЕЕ 
оРсопзегасНоп оЁ абге 5е! изшо а \е1еЩе4 запр!е, Базе оп ап аззеззтепе оЁ шЮюгтаноп 
сошепЕ оРабиге$ оРууете Е \/-оес($ 1$ отуеп. ТВе то 1Йе4 тео4 оРК-пеагезЕ пе1еПБог$ 
Юг оБес!$ с1аз;1ИсанНоп изше а \’е1еЩе4 затар/е 1$ ргорозе4. 

Тре еНесйуепез$ оЁ Ше ргорозе4 арргоасв 1$ сопйгтеа Бу ехрегитеп$ оп {е5( ап 
геа1 Чайа. 1$ зВо\уй фаЕ 15 арргоасВ сап з1етиЯсап у гедисе Ше Иите ап4 зрасе соз(5 
Гог Фе сопзгасйоп оР!е Ееаге зе! ап4 еслз1юп г[ез \ВПе тайцатие ап епту-[еуе| оЁР 
Фе зубет еЁйсепсу. 


Статья поступила в редакцию 04.07.2012. 
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